4.2 Fisher的信任推断法

Fisher 的区间估计的方法原则上可以用于任何统计推断问题, 代表了对统计问题的一种根本上不同的观点.

1 信任分布

设样本 $X \sim N (θ, 1)$ , 样本大小为 $1$ , 则 $X - θ \sim N (0, 1)$ , 即对 $\forall t \in R$ : $P (X - θ < t) = Φ (t) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{t} e^{- \frac{y^{2}}{2}} d y,$ 它可以改写为 $\begin{matrix} (1.1) & P (θ > X - t) = Φ (t), 或 P (θ < X - t) = 1 - Φ (t) . \end{matrix}$ 虽然从通常的概率论来说这样的写法没什么区别, 但是 Fisher 却认为, 有了样本 $X$ 后, 把 $θ$ 看成一个随机变量, 它就有了一个分布, 把它称为 $θ$ 的信任分布.

在得到 $X$ 前, 我们对 $θ$ 一无所知. $X$ 提供的信息打破了我们的无知, 用概率分布的形式给出了对 $θ$ 的新认识.

再比如, 要做 $θ$ 的区间估计, 给定 $α$ , 找 $a, b (a < b)$ , 使 $\tilde{P} (a \leq θ \leq b) = 1 - α$ ( $\tilde{P}$ 表示 $θ$ 的信任分布). 则根据 (1.1), 这要求 $Φ (X - a) - Φ (X - b) = 1 - α .$ 取一组让 $b - a$ 最小的 $a, b$ , 这时 $a = X - u_{\frac{α}{2}}$ , $b = X + u_{\frac{α}{2}}$ .

对于多个样本 $X_{1}, \dots, X_{n} \overset{i . i . d}{\sim} N (θ, 1)$ , 注意到 $\overset{―}{X}$ 是 $θ$ 的充分统计量, 且 $\sqrt{n} (\overset{―}{X} - θ) \sim N (0, 1)$ , 则得到信任分布 $θ \sim N (\overset{―}{X}, \frac{1}{n})$ . 由此建立信任区间 $[\overset{―}{X} - \frac{u_{\frac{α}{2}}}{\sqrt{n}}, \overset{―}{X} + \frac{u_{\frac{α}{2}}}{\sqrt{n}}]$ .
再比如 $X_{1}, \dots, X_{n} \overset{i . i . d}{\sim} N (a, σ^{2})$ , $a, σ$ 未知, 则 $\frac{\sqrt{n} (\overset{―}{X} - a)}{S} \sim t_{n - 1}$ , 即 $P (\frac{\sqrt{n} (\overset{―}{X} - a)}{S} < x) = T_{n - 1} (x) = P (a > \overset{―}{X} - \frac{S x}{\sqrt{n}}) .$
虽然到目前为止和置信区间的结果一样, 但是往后人们发现具体结果也可能不同.
Fisher 的理论目前存在两个问题:

什么是信任分布. 这种"信任程度"怎么刻画. 我们可以用类似"公理化"的方法把它作为一个基本概念不加说明.
怎么确定信任分布. 对于不存在充分统计量的时候, 或者存在多个充分统计量的时候, 怎么导出信任区间.

2 用 Fisher 方法解 Behrens-Fisher 问题

Behrens-Fisher 问题是这样的问题:

问题

$X_{1}, \dots, X_{m} \sim N (a, σ_{1}^{2})$ , $Y_{1}, \dots, Y_{n} \sim N (b, σ_{2}^{2})$ , $a, b, σ_{1}, σ_{2}$ 未知, 所有样本独立, 找 $b - a$ 的区间估计.

也即和前面的两样本检验相比, 最大的不同是方差不再相同.
为了解决这个问题, 记 $\overset{―}{X}, S_{1}^{2}, \overset{―}{Y}, S_{2}^{2}$ . 记 $t_{1} \sim t_{m - 1}$ , $t_{2} \sim t_{n - 1}$ . 用 $ξ \overset{d}{=} η$ 表示两个随机变量分布相同. 则 $\frac{\sqrt{m} (\overset{―}{X} - a)}{S_{1}} \overset{d}{=} t_{1}, \frac{\sqrt{n} (\overset{―}{Y} - b)}{S_{2}} \overset{d}{=} t_{2} .$ 记 $Z = \overset{―}{Y} - \overset{―}{X}$ , $θ = b - a$ . 记 $S_{1}^{*} = \frac{S_{1}}{\sqrt{m}}$ , $S_{2}^{*} = \frac{S_{2}}{\sqrt{n}}$ , 则 $Z - θ = S_{2}^{*} t_{2} - S_{1}^{*} t_{1} \Rightarrow θ = Z - (S_{2}^{*} t_{2} - S_{1}^{*} t_{1}) .$ 有了样本后, 记 $Z, S_{1}^{*}, S_{2}^{*}$ 的具体值为 $z, s_{1}^{*}, s_{2}^{*}$ . 则上式变为 $θ$ 的信任分布.
因为 $t_{1}, t_{2}$ 独立且都是 t 分布, 所以可以确定 $θ$ 的信任分布. 记 $r = \sqrt{{s_{1}^{*}}^{2} + {s_{2}^{*}}^{2}}$ , 找 $ψ : \cos ψ = \frac{s_{2}^{*}}{r}$ . 此时 $\sin ψ = \frac{s_{1}^{*}}{r}$ . 而 $s_{2}^{*} t_{2} - s_{1}^{*} t_{1} = r (t_{2} \cos ψ - t_{1} \sin ψ)$ . 用 $F_{m, n, ψ}$ 表示 $t_{2} \cos ψ - t_{1} \sin ψ$ 的分布(因为只和 $m, n, ψ$ 有关). 找 $y_{m, n, ψ, α} > 0$ 使得 $F_{m, n, ψ} (y_{m, n, ψ, α}) - F_{m, n, ψ} (- y_{m, n, ψ, α}) = 1 - α,$ 则 $\tilde{P} (| z - θ | \leq r y_{m, n, ψ, α}) = P (| t_{2} \cos ψ - t_{1} \sin ψ | \leq y_{m, n, ψ, α}) = 1 - α,$ 于是 $\tilde{P} (z - r y_{m, n, ψ, α} \leq θ \leq z + r y_{m, n, ψ, α}) = 1 - α .$ 从而我们得到信任区间 $[z - r y_{m, n, ψ, α}, z + r y_{m, n, ψ, α}]$ .
可以证明这个区间并不是 $1 - α$ 置信区间.